两阶段探测器在物体检测和行人检测中是最新的。但是,当前的两个阶段探测器效率低下,因为它们在多个步骤中进行边界回归,即在区域提案网络和边界框头中进行回归。此外,基于锚的区域提案网络在计算上的训练价格很高。我们提出了F2DNET,这是一种新型的两阶段检测体系结构,通过使用我们的焦点检测网络和边界框以我们的快速抑制头替换区域建议网络,从而消除了当前两阶段检测器的冗余。我们在顶级行人检测数据集上进行基准F2DNET,将其与现有的最新检测器进行彻底比较,并进行交叉数据集评估,以测试我们模型对未见数据的普遍性。我们的F2DNET在城市人员,加州理工学院行人和欧元城市人数据集中分别获得8.7 \%,2.2 \%和6.1 \%MR-2,分别在单个数据集上进行培训并达到20.4 \%\%\%和26.2 \%MR-2。使用渐进式微调时,加州理工学院行人和城市人员数据集的重型闭塞设置。此外,与当前的最新时间相比,F2DNET的推理时间明显较小。代码和训练有素的模型将在https://github.com/abdulhannankhan/f2dnet上找到。
translated by 谷歌翻译
随着机器学习的出现,在医疗保健和能源等关键基础设施的应用中,隐私是利益相关者的思想中越来越令人担忧。它是衡量的,确保模型和数据都不能用于提取攻击者对个人使用的敏感信息或通过利用关键基础设施来伤害整个社会。由于缺乏关于透明度和隐私约束的信任,机器学习在这些域中的适用性主要是有限的。各种安全关键用例(主要依赖于时间序列数据)目前在隐私相关的考虑因素方面受到了代表性。通过评估有关其在时间序列数据的适用性的若干隐私保留方法,我们验证了加密对深度学习的影响,差异隐私的强大数据集依赖性以及联合方法的广泛适用性。
translated by 谷歌翻译
当今智能城市中产生的大型视频数据从其有目的的用法角度引起了人们的关注,其中监视摄像机等是最突出的资源,是为大量数据做出贡献的最突出的资源,使其自动化分析成为计算方面的艰巨任务。和精确。暴力检测(VD)在行动和活动识别域中广泛崩溃,用于分析大型视频数据,以了解由于人类而引起的异常动作。传统上,VD文献基于手动设计的功能,尽管开发了基于深度学习的独立模型的进步用于实时VD分析。本文重点介绍了深度序列学习方法以及检测到的暴力的本地化策略。该概述还介入了基于机器学习的初始图像处理和基于机器学习的文献及其可能具有的优势,例如针对当前复杂模型的效率。此外,讨论了数据集,以提供当前模型的分析,并用对先前方法的深入分析得出的VD域中的未来方向解释了他们的利弊。
translated by 谷歌翻译
在安全至关重要的应用中,深度神经网络的使用越来越多,就需要训练有素的模型。当前大多数校准技术解决了分类问题,同时着重于改善对内域预测的校准。在许多决策系统中占据相似的空间和重要性的视觉对象探测器的校准几乎没有关注。在本文中,我们研究了当前对象检测模型的校准,尤其是在域移位下。为此,我们首先引入了插件的火车时间校准损失以进行对象检测。它可以用作辅助损失函数,以改善检测器的校准。其次,我们设计了一种新的不确定性量化机制来进行对象检测,该机制可以隐式校准常用的基于自我训练的域自适应检测器。我们在研究中包括单阶段和两阶段对象探测器。我们证明,我们的损失改善了具有明显边缘的内域和室外检测的校准。最后,我们展示了我们技术在校准不同域移动方案中的域自适应对象探测器方面的实用性。
translated by 谷歌翻译
本文提出了Mburst,这是一种新型的多模式解决方案,用于视听语音增强功能,该解决方案考虑了有关前额叶皮层和其他大脑区域的锥体细胞的最新神经系统发现。所谓的爆发传播实现了几个标准,以更加可行的方式解决信用分配问题:通过反馈来指导可塑性的标志和大小,并线性化反馈信号。 Mburst从这种能力中受益于学习嘈杂信号和视觉刺激之间的相关性,从而通过扩增相关信息和抑制噪声来归因于语音。通过网格语料库和基于Chime3的数据集进行的实验表明,Mburst可以将类似的掩模重建基于多模态反向传播基线,同时证明了出色的能量效率管理,从而降低了神经元的发射速率,以降低价值,最高为\ textbf {$ 70 \%$}降低。这样的功能意味着更可持续的实现,适合助听器或任何其他类似的嵌入式系统。
translated by 谷歌翻译
人类活动识别是计算机视觉中的新出现和重要领域,旨在确定个体或个体正在执行的活动。该领域的应用包括从体育中生成重点视频到智能监视和手势识别。大多数活动识别系统依赖于卷积神经网络(CNN)的组合来从数据和复发性神经网络(RNN)中进行特征提取来确定数据的时间依赖性。本文提出并设计了两个用于人类活动识别的变压器神经网络:一个经常性变压器(RET),这是一个专门的神经网络,用于对数据序列进行预测,以及视觉变压器(VIT),一种用于提取显着的变压器的变压器(VIT)图像的特征,以提高活动识别的速度和可扩展性。我们在速度和准确性方面提供了对拟议的变压器神经网络与现代CNN和基于RNN的人类活动识别模型的广泛比较。
translated by 谷歌翻译
我们通过将回归或分类函数的全局解释分解为主组件和任意顺序的相互作用组件的总和。当添加由因果解释激励的识别约束时,我们发现Q交互作用是该约束的独特解决方案。在这里,Q表示分解中存在的最高相互作用。我们的结果为具有各种实践和理论含义的外形值提供了新的视角:如果将塑形值分解为主要和所有相互作用效应,它们提供了带有因果解释的全球解释。原则上,分解可以应用于任何机器学习模型。但是,由于可能的相互作用的数量随特征的数量呈指数增长,因此精确的计算仅对于适合低维结构或这些组合的方法可行。我们为梯度增压树提供了一种算法和有效的实施(Xgboost和随机种植的森林,计算出这种分解。进行的实验表明,我们的方法提供了有意义的解释,并揭示了更高阶的相互作用。我们还通过利用新见解的进一步的潜力来利用新见解的进一步的潜力。全球解释,用于激励特征重要性的新量度,以及通过删除事后删除来减少直接和间接偏见。
translated by 谷歌翻译
基于视觉的人类活动识别已成为视频分析领域的重要研究领域之一。在过去的十年中,已经引入了许多先进的深度学习算法,以识别视频流中复杂的人类行为。这些深度学习算法对人类活动识别任务显示出令人印象深刻的表现。但是,这些新引入的方法仅专注于模型性能或这些模型在计算效率和鲁棒性方面的有效性,从而导致其解决挑战性人类活动识别问题的提议中的偏差折衷。为了克服当代深度学习模型对人类活动识别的局限性,本文提出了一个计算高效但通用的空间级联框架,该框架利用了深层歧视性的空间和时间特征,以识别人类活动的识别。为了有效地表示人类行动,我们提出了有效的双重注意卷积神经网络(CNN)体系结构,该结构利用统一的通道空间注意机制来提取视频框架中以人为中心的显着特征。双通道空间注意力层与卷积层一起学会在具有特征图数量的物体的空间接收场中更加专注。然后将提取的判别显着特征转发到堆叠的双向封闭式复发单元(BI-GRU),以使用前进和后传球梯度学习,以实现长期时间建模和对人类行为的识别。进行了广泛的实验,其中获得的结果表明,与大多数当代动作识别方法相比,所提出的框架的执行时间的改善最高167倍。
translated by 谷歌翻译
为了推动满足所有人需求并使医疗保健民主化的健康创新,有必要评估各种分配转变的深度学习(DL)算法的概括性能,以确保这些算法具有强大的态度。据我们所知,这项回顾性研究是第一个开发和评估从跨种族,年龄和性别的长期跳动间隔的AF事件检测的深度学习模型(DL)模型的概括性能(DL)模型的概括。新的复发DL模型(表示为ARNET2)是在2,147名患者的大型回顾性数据集中开发的,总计51,386小时连续心电图(ECG)。对来自四个中心(美国,以色列,日本和中国)的手动注释测试集评估了模型的概括,总计402名患者。该模型在以色列海法的Rambam医院Holter Clinic的1,730个Consecutives Holter记录中进一步验证了该模型。该模型的表现优于最先进的模型,并且在种族,年龄和性别之间进行了广泛的良好。女性的表现高于男性和年轻人(不到60岁),并且在种族之间显示出一些差异。解释这些变化的主要发现是心房颤动患病率更高(AFL)的群体的性能受损。我们关于跨组的ARNET2相对性能的发现可能对选择相对于感兴趣群的首选AF检查方法具有临床意义。
translated by 谷歌翻译
有充分的神经生物学证据表明,上下文敏感的新皮质神经元使用其顶端输入来放大相干进料(FF)输入的传播。但是,到目前为止,尚未证明这种已知机制如何提供有用的神经计算。在这里,我们首次展示了这种神经信息处理的处理和学习能力与哺乳动物新皮层的能力相匹配。具体而言,我们表明,由此类本地处理器组成的网络将冲突的信息传输到更高级别,并大大减少处理大量异质现实世界数据所需的活动量,例如在处理视听语音时,这些本地处理器使用这些本地处理器时看到唇部动作可有选择地放大这些动作产生的听觉信息的FF传输,反之亦然。由于这种机制比最佳可用的深神经网的最佳形式更有效率,因此它为理解大脑的神秘能量节能机制提供了逐步改变,并激发了设计增强形式的生物学上的机器学习算法的进步。
translated by 谷歌翻译